Ảnh hưởng của các biến Q-learning_(học_tăng

Ảnh hưởng của các biến Q-learning_(học_tăng_cường)

Tỷ lệ học

Tỷ lệ học hoặc kích thước bước xác định mức độ thông tin mới thu được sẽ ghi đè thông tin cũ. Hệ số 0 làm cho tác nhân không học được gì (chỉ khai thác kiến thức trước), trong khi hệ số 1 khiến tác nhân chỉ xem xét thông tin gần đây nhất (bỏ qua kiến thức trước để khám phá các khả năng). Trong môi trường hoàn toàn xác định, tỷ lệ học tập của α t = 1 {\displaystyle \alpha _{t}=1} là tối ưu. Khi vấn đề là ngẫu nhiên, thuật toán hội tụ trong một số điều kiện kỹ thuật về tốc độ học tập yêu cầu nó giảm xuống không. Trong thực tế, thường sử dụng một tỷ lệ học tập liên tục, chẳng hạn như α t = 0.1 {\displaystyle \alpha _{t}=0.1} cho tất cả t {\displaystyle t} .[3]

Hệ số chiết khấu

Hệ số chiết khấu γ {\displaystyle \gamma } xác định tầm quan trọng của phần thưởng trong tương lai. Hệ số 0 sẽ khiến tác nhân "cận thị" (hay thiển cận) bằng cách chỉ xem xét các phần thưởng hiện tại, tức là r t {\displaystyle r_{t}} (trong quy tắc cập nhật ở trên), trong khi một yếu tố tiếp cận 1 sẽ khiến nó phấn đấu để nhận phần thưởng cao dài hạn. Nếu hệ số chiết khấu bằng hoặc vượt quá 1, các giá trị hành động có thể phân kỳ. Dành cho γ = 1 {\displaystyle \gamma =1} , không có trạng thái cuối, hoặc nếu tác nhân không bao giờ đạt tới một, tất cả lịch sử môi trường trở nên dài vô tận và các tiện ích với phần thưởng phụ gia, không được tiết lộ thường trở thành vô hạn.[4] Ngay cả với hệ số chiết khấu chỉ thấp hơn một chút, việc học theo chức năng Q dẫn đến việc lan truyền các lỗi và sự không ổn định khi hàm giá trị được xấp xỉ với mạng nơ ron nhân tạo.[5] Trong trường hợp đó, bắt đầu với hệ số chiết khấu thấp hơn và tăng nó theo giá trị cuối cùng sẽ đẩy nhanh quá trình học tập.[6]

Điều kiện ban đầu (Q0)

Vì Q -learning là một thuật toán lặp, nó mặc nhiên thừa nhận một điều kiện ban đầu trước khi cập nhật đầu tiên xảy ra. Giá trị ban đầu cao, còn được gọi là "điều kiện ban đầu lạc quan",[7] có thể khuyến khích thăm dò: bất kể hành động nào được chọn, quy tắc cập nhật sẽ khiến nó có giá trị thấp hơn so với phương án khác, do đó tăng xác suất lựa chọn của chúng. Phần thưởng đầu tiên r {\displaystyle r} có thể được sử dụng để thiết lập lại các điều kiện ban đầu.[8] Theo ý tưởng này, lần đầu tiên một hành động được thực hiện phần thưởng được sử dụng để đặt giá trị của Q {\displaystyle Q} . Điều này cho phép học ngay lập tức trong trường hợp phần thưởng xác định cố định. Một mô hình kết hợp thiết lập lại các điều kiện ban đầu (RIC) dự kiến sẽ dự đoán hành vi của người tham gia tốt hơn một mô hình giả định bất kỳ điều kiện ban đầu tùy ý (AIC).[8] RIC dường như phù hợp với hành vi của con người trong các thí nghiệm lựa chọn nhị phân lặp đi lặp lại.[8]

Tài liệu tham khảo

WikiPedia: Q-learning_(học_tăng_cường) http://webdocs.cs.ualberta.ca/~sutton/book/ebook/n... http://papers.nips.cc/paper/3964-double-q-learning http://www.bkgm.com/articles/tesauro/tdl.html //edwardbetts.com/find_link?q=Q-learning_(h%E1%BB%... //books.google.com/books?id=YPjNuvrJR0MC //books.google.com/books?id=clKwynlfZYkC&pg=PA320-... //books.google.com/books?id=mGtQAAAAMAAJ&pg=PA397 //books.google.com/books?id=oLcAiySCow0C http://www.research.ibm.com/infoecon/paps/html/ijc... http://www.leemon.com/papers/1995b.pdf